Исходные данные

Файл abalone.data содержит данные о возрасте и физ. характеристиках молюсков.

##      sex           length         diameter          height      
##  Female:1307   Min.   :0.075   Min.   :0.0550   Min.   :0.0000  
##  Infant:1342   1st Qu.:0.450   1st Qu.:0.3500   1st Qu.:0.1150  
##  Male  :1527   Median :0.545   Median :0.4250   Median :0.1400  
##                Mean   :0.524   Mean   :0.4079   Mean   :0.1395  
##                3rd Qu.:0.615   3rd Qu.:0.4800   3rd Qu.:0.1650  
##                Max.   :0.815   Max.   :0.6500   Max.   :1.1300  
##   whole_weight    shucked_weight   viscera_weight     shell_weight   
##  Min.   :0.0020   Min.   :0.0010   Min.   :0.00050   Min.   :0.0015  
##  1st Qu.:0.4415   1st Qu.:0.1860   1st Qu.:0.09337   1st Qu.:0.1300  
##  Median :0.7997   Median :0.3360   Median :0.17100   Median :0.2340  
##  Mean   :0.8288   Mean   :0.3594   Mean   :0.18061   Mean   :0.2389  
##  3rd Qu.:1.1533   3rd Qu.:0.5020   3rd Qu.:0.25300   3rd Qu.:0.3290  
##  Max.   :2.8255   Max.   :1.4880   Max.   :0.76000   Max.   :1.0050  
##      rings       
##  Min.   : 1.000  
##  1st Qu.: 8.000  
##  Median : 9.000  
##  Mean   : 9.932  
##  3rd Qu.:11.000  
##  Max.   :29.000

При построении гистограм наблюдаются положительная и отрицательная ассиметрия.

Возможные зависимости

Предполагается, что наблюдаются зависимости веса от диаметра и веса от высоты.

Линейные модели возможных зависимостей

Характеристики линейной модели для зависимости веса от диаметра:

## 
## Call:
## lm(formula = data$diameter ~ data$whole_weight, data = data)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.198038 -0.015281  0.008041  0.024858  0.114478 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       0.252664   0.001143   221.1   <2e-16 ***
## data$whole_weight 0.187288   0.001187   157.8   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.03761 on 4174 degrees of freedom
## Multiple R-squared:  0.8565, Adjusted R-squared:  0.8564 
## F-statistic: 2.491e+04 on 1 and 4174 DF,  p-value: < 2.2e-16

Характеристики линейной модели для зависимости веса от высоты:

## 
## Call:
## lm(formula = data$height ~ data$whole_weight, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.14742 -0.01031 -0.00035  0.00993  1.00688 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       0.0816199  0.0007291  111.95   <2e-16 ***
## data$whole_weight 0.0698672  0.0007571   92.29   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.02399 on 4174 degrees of freedom
## Multiple R-squared:  0.6711, Adjusted R-squared:  0.671 
## F-statistic:  8517 on 1 and 4174 DF,  p-value: < 2.2e-16

Устранение выбросов

Обзор датафрейма без выбросов:

##      sex           length          diameter          height      
##  Female:1278   Min.   :0.1850   Min.   :0.2000   Min.   :0.0000  
##  Infant:1227   1st Qu.:0.4600   1st Qu.:0.3550   1st Qu.:0.1150  
##  Male  :1461   Median :0.5450   Median :0.4250   Median :0.1450  
##                Mean   :0.5304   Mean   :0.4131   Mean   :0.1408  
##                3rd Qu.:0.6150   3rd Qu.:0.4800   3rd Qu.:0.1650  
##                Max.   :0.7600   Max.   :0.6000   Max.   :0.2500  
##   whole_weight    shucked_weight   viscera_weight    shell_weight   
##  Min.   :0.0765   Min.   :0.0300   Min.   :0.0105   Min.   :0.0215  
##  1st Qu.:0.4646   1st Qu.:0.1970   1st Qu.:0.0995   1st Qu.:0.1366  
##  Median :0.8085   Median :0.3410   Median :0.1722   Median :0.2350  
##  Mean   :0.8281   Mean   :0.3583   Mean   :0.1808   Mean   :0.2396  
##  3rd Qu.:1.1439   3rd Qu.:0.4980   3rd Qu.:0.2499   3rd Qu.:0.3250  
##  Max.   :1.9965   Max.   :1.0260   Max.   :0.5410   Max.   :0.8150  
##      rings      
##  Min.   : 4.00  
##  1st Qu.: 8.00  
##  Median :10.00  
##  Mean   :10.06  
##  3rd Qu.:11.00  
##  Max.   :29.00

Характеристики линейной модели для зависимости веса от диаметра без выбросов:

## 
## Call:
## lm(formula = data$diameter ~ data$whole_weight, data = data.noout)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.198038 -0.015281  0.008041  0.024858  0.114478 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       0.252664   0.001143   221.1   <2e-16 ***
## data$whole_weight 0.187288   0.001187   157.8   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.03761 on 4174 degrees of freedom
## Multiple R-squared:  0.8565, Adjusted R-squared:  0.8564 
## F-statistic: 2.491e+04 on 1 and 4174 DF,  p-value: < 2.2e-16

Характеристики линейной модели для зависимости веса от высоты без выбросов:

## 
## Call:
## lm(formula = data$height ~ data$whole_weight, data = data.noout)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.14742 -0.01031 -0.00035  0.00993  1.00688 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       0.0816199  0.0007291  111.95   <2e-16 ***
## data$whole_weight 0.0698672  0.0007571   92.29   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.02399 on 4174 degrees of freedom
## Multiple R-squared:  0.6711, Adjusted R-squared:  0.671 
## F-statistic:  8517 on 1 and 4174 DF,  p-value: < 2.2e-16

Прогноз

Для этого массив разделен случайно на две части.

Затем линейная модель была подогнана по первой части.

Во второй части массива спрогнозировованы значения.

Качество прогноза составляет для зависимости веса от длины

## [1] 0.737099

для зависимости веса от высоты

## [1] 0.737099